#Computex 2025大會
【Computex】輝達computeX 大會--NVLink Fusion
今天,老黃在Computex 2025大會上,發表了一場長達兩小時的主題演講。一開始老黃回顧了Nvidia 的發展歷程,從專注於GPU,到2006年推出CUDA,再到AI基礎設施巨頭,其實這場演講中提到的很多產品之前就推出了,只是在這場演講中又提到了一些細節。GB300計畫在Q3推出,該晶片推理性能提升 1.5 倍、HBM記憶體提升 1.5 倍、網路頻寬提升 2 倍,並與上一代保持物理相容性,實現100%液冷。CES上提及的Project DIGITS的個人AI電腦DGX Spark已全面投產,老黃表示每個人都可以在聖誕節擁有一台。RTX Pro 企業 AI 伺服器,支援傳統x86、Hypervisor、Windows 等 IT 工作負載----筆者對這個產品一直都沒太關注過。面向機器人領域的Isaac Groot 1.5平台。在這次的演講中,最吸引我的還是NVLink Fusion。這篇文章就分析一下這個技術。進入正文之前,先扯點別的。老黃確實非常會演講,當聽到上面這段話的時候,真心佩服老黃。把輝達帶到了這樣一個高度。可以說如果沒有輝達,AI的發展處理程序不會有這麼快。但也不知為什麼,耳邊還是會經常響起Linus的那句:Fuck Nvidia.言歸正傳,我們來聊一聊NVLink Fusion。能刷到這篇文章的朋友,相信大家肯定都知道NVLink,在輝達的伺服器中,負責連接各個GPU。NVLink Fusion將 NVLink 帶到第三方 CPU 和加速器,而不僅僅是在輝達自家產品上使用。作為 Computex 主題演講重點,NVIDIA 推出 NVLink Fusion,這是其互連技術套件新成員,旨在向第三方 CPU 和加速器開放 NVLink 生態系統,通過發佈 IP 和硬體推動第三方設計與自家晶片互操作,雖系統仍需包含部分 NVIDIA 晶片,但目標是讓合作夥伴建構融合輝達晶片與定製晶片的半定製機架系統。NVLink 自 2016 年隨 Pascal 架構推出作為 PCI-Express 替代方案,後經多年發展提升頻寬並通過交換機擴展應用範圍,如今是 NVIDIA 重要技術,助力實現 72 GPU 機架等大規模系統搭建,而 NVLink Fusion 則是其向半定製設計開放、滿足客戶靈活性需求的下一步舉措。NVLink Fusion 包含兩種技術,一是半定製 CPU,允許非 NVIDIA CPU 通過 NVLink C2C 連接至 NVIDIA GPU,該技術並非全新,2022 年 GTC 已開放 NVLink C2C 用於定製晶片整合,此次是進一步推動,硬體廠商可授權該技術整合到晶片中替代 Grace CPU,改變此前只能用 PCIe 顯示卡配對的方式;二是更具創新性的部分,即通過開發 NVLink 5 Chiplet 整合到半定製加速器中,使第三方加速器借助 NVIDIA 的 Chiplet 獲得 NVLink 5 功能,不過 NVLink 5 未向第三方完整授權,目前 Chiplet 的硬體規格及與加速器連接技術等細節尚未公佈,但為高性能加速器接入 NVLink 網路提供了可能。NVIDIA 明確 NVLink Fusion 為 “二選一” 技術,可整合半定製 CPU 或 GPU 但不可同時使用兩者,節點必須包含 NVIDIA 晶片,這是許可限制而非技術限制,因 NVLink 5 功能主要由 GPU 或含 Chiplet 的加速器承擔,CPU 不關鍵,但 NVIDIA 從銷售晶片的商業角度出發需保障自身在系統中的存在,即便允許第三方加速器替代自家 GPU 較大膽,不過也反映出合作夥伴對機架設計靈活性的強烈需求,Grace Blackwell 並非萬能方案,而 NVLink 的有限開放是各方推動的結果。目前 NVLink Fusion 的合作夥伴包括 Alchip、AsteraLabs 等晶片和加速器廠商,它們正開發整合該技術的產品,富士通和高通則在研發可與 NVIDIA GPU 配對的支援該技術的新 CPU,此外 Cadence 和 Synopsys 作為技術合作夥伴提供 IP 模組和設計服務,助力相關硬體開發。NVLink Fusion 標誌著 NVIDIA 生態的有限開放,在平衡靈活性與商業利益的同時,可能加速 AI 算力基礎設施多元化,為第三方晶片切入高性能計算市場提供路徑。image-20250519222807367大家有沒有想過這樣一個問題,輝達為什麼要出NVLink Fusion?很多同學可能會認為是由於NVLink這個護城河沒有那麼穩了,像博通、Astera Labs和Marvell其實都是有各自的switch方案的,華為前段時間也推出了Cloud Matrix,可以實現384個GPU的互聯。說一下我的觀點。NVLink的優勢並未減弱,反而在AI和高性能計算領域依然顯著:超高頻寬和低延遲,第五代NVLink提供1.8 TB/s的雙向頻寬(每GPU 900 GB/s),比PCIe 5.0(128 GB/s)高出14倍,且能效高5倍。 這種頻寬對於AI模型訓練和推理的規模化至關重要,尤其是處理大規模模型平行時。機架級擴展性,NVLink Switch晶片將互連從單節點擴展到機架級,支援多達72個GPU的叢集,提供130 TB/s的域頻寬。這種規模化能力是PCIe或競品互連難以匹敵的。雖然華為有Cloud Matrix 384,但這種方案確實增加了系統的複雜性,加大了偵錯難度和系統的不穩定性,而且華為也還沒有量產出貨,目前還不能說對NVLink造成挑戰。生態系統整合,NVLink與Nvidia的SHARP協議(支援網路內歸約運算)和Mission Control軟體結合,最佳化了AI工作負載的吞吐量和延遲。每增加2倍NVLink頻寬,可帶來1.3-1.4倍的機架級AI性能提升。NVLink Fusion的推出是Nvidia在維持技術優勢的同時,適應市場對靈活性和定製化的需求。AI基礎設施的複雜性要求異構計算,而Nvidia通過NVLink Fusion確保其GPU和生態系統仍是核心,防止客戶完全轉向競爭對手的解決方案。此外,Nvidia可能意識到完全封閉NVLink會限制市場擴張,尤其是在雲服務商和主權AI項目中。通過“半開放”策略(要求至少包含Nvidia GPU或Grace CPU),Nvidia既擴大了生態,又避免了完全開放互連標準的風險。 (傅里葉的貓)